Previsão de séries epidemiológicas incorporando atraso na notificação

Aluna: Danielly Santos Severino ()
Orientador: Dani Gamerman ()
Co-Orientadora: Izabel Nolau ()

26/06/2023

Introdução

Introdução

 

\[Atraso \;\; na \;\; notificação\; = \;Casos \;\; notificados \;\; após \;\; a \;\; indicidência \]

 

Os casos notificados distorcem a relação entre a incidência da doença RELATADA e a VERDADEIRA incidência da doença.

Os atrasos na notificação dos casos de incidência de doenças pode ocorrer devido a diversos fatores como:

Os atrasos dificultam a análise em tempo real do problema.

Então, queremos RECUPERAR os atrasos para contruir a estrutura REAL dos dados que não foram observados.

Também queremos PREVER os casos de doenças infecciosas para, por exemplo, auxiliar no planejamento de alocação de recursos.

Introdução

Objetivos

 

 

 

 

Estrutura típica dos dados com atraso na notificação

\(T\):  Tempo atual.              \(D\):  Atraso máximo relevante.              \(H\):  Horizonte máximo de previsão.

\(n_{t,d}\):  Número de eventos ocorridos no tempo \(t\) registrados após \(d\) unidades de tempo.

\(N_{t} = \sum_{d=0}^{D} n_{t,d}\):  Número total de eventos ocorridos no tempo \(t\).

Estrutura típica dos dados com atraso na notificação

 

Por definição, existe uma estrutura de dependência entre os dados já que

\[N_{t} = \sum_{d = 0}^{D} n_{t,d}\]

E, consequentemente,

\[n_{t,0} = N_{t} - \sum_{d = 1}^{D} n_{t,d}\] para \(t = 1, ..., T, T+1, ..., T+H\).

Portanto, não é possível especificar um modelo para \(N_{t}\) e \(n_{t,d}\) incorporando todos os atrasos ao mesmo tempo respeitando a disposição dos dados.

Como \(n_{t,0}\) são as contagens sem nenhum atraso, pode ser mais interessante especificar um modelo para \(N_{t}\) e \(n_{t,d}\) com \(d = 1,...,D\) e \(t = 1, ..., T, T+1, ..., T+H\).

Metodologia

O método de Monte Carlo via Cadeias de Markov (MCMC) foi utilizado como técnica de extração de amostras para aproximar as densidades a posteriori das quantidades de interesse. Destaca-se que no MCMC, por ser um modelo altamente não linear, precisamos contar com a ajuda de bons pontos de partida para obter estimativas e previsões adequadas.

Para obter as estimativas e previsões intervalares foi utilizado o intervalo HPD (Highest Posterior Density), uma vez que esse é o intervalo de credibilidade mais estreito que contém uma proporção específica baseado na distribuição a posteriori.

A operacionalização foi realizada via STAN e R (versão 4.3.1).

Modelo proposto com estrutura de atraso independente

O modelo com estrutura de atraso na notificação independente (MI) foi ajustado conforme as especificações abaixo.

Modelo proposto para os dados:

\[\begin{align} & n_{t,d} \sim Poisson(\lambda_{t,d}) \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; N_{t} \sim Poisson(\theta_{t}) \\ \\ & \lambda_{t,d} = \exp(\alpha_{t,d}) = \dfrac{a_{d} \; c_{d}\; f_{d}\; \exp(-c_{d}\;t)} {[b_{d} + \exp(-c_{d}\;t)]^ { f_{d} + 1} } \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \theta_{t} = \dfrac{a \;c \;f \exp(-c\;t)}{[b + \exp(-c\;t)]^ { f + 1} }\\ \end{align}\]

Para  \(t = 1, ..., T, T+1, ..., T+H\)  e  \(d = 1,...,D\).

Onde,

\[\theta_{t} > \sum_{d = 1}^{D} \lambda_{t,d}\]

Distribuições a priori:

\[\begin{align} & a_{d} \sim Gama(0.1, 0.1) \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; a \sim Gama(0.1, 0.1) \\ \\ & \exp(b_{d}) \sim Normal(0, \sqrt{20}) \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \exp(b) \sim Normal(0, \sqrt{20}) \\ \\ & c_{d} \sim Gama(2, 9) \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; c \sim Gama(2, 9) \\ \\ & f_{d} \sim Gama(0.01, 0.01) \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; f \sim Gama(0.01, 0.01) \\ \end{align}\]

Modelo proposto com estrutura conjunta de atraso na notificação

O modelo com estrutura de atraso na notificação conjunta (MC) foi ajustado conforme as especificações abaixo.

Modelo proposto para os dados:

\[\begin{align} & n_{t,d} \sim Poisson(\lambda_{t,d}) \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; N_{t} \sim Poisson(\theta_{t}) \\ \\ & log(\lambda_{t,d}) = \alpha_{t} + \beta_{d} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \theta_{t} = \dfrac{a_{\theta}\; c_{\theta}\; f_{\theta} \exp(-c_{\theta}\;t)} {[b_{\theta} + \exp(-c_{\theta}\;t)]^ { f_{\theta} + 1} } \\ \\ & \exp(\alpha_{t}) = \dfrac{a_{\alpha}\; c_{\alpha}\; f_{\alpha} \exp(-c_{\alpha}\;t)} {[b_{\alpha} + \exp(-c_{\alpha}\;t)]^ { f_{\alpha} + 1} } \\ \\ & \beta_{d} = \gamma d \\ \end{align}\]

Para \(t = 1, ..., T, T+1, ..., T+H\) e \(d = 1, ..., D\).

Onde,

\[\theta_{t} > \sum_{d = 1}^{D} \lambda_{t,d}\]

Distribuições a priori:

\[\begin{align} & a_{\alpha} \sim Gama(0.1, 0.1) \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; a_{\theta} \sim Gama(0.1, 0.1) \\ \\ & \exp(b_{\alpha}) \sim Normal(0, \sqrt{20}) \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \exp(b_{\theta}) \sim Normal(0, \sqrt{20}) \\ \\ & c_{\alpha} \sim Gama(2, 9) \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; c_{\theta} \sim Gama(2, 9) \\ \\ & f_{\alpha} \sim Gama(0.01, 0.01) \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; f_{\theta} \sim Gama(0.01, 0.01) \\ \\ & \gamma \sim Normal(0,100) \\ \end{align}\]

Densidades das distribuições a priori

 

As distribuições a priori foram especificadas de acordo com as estimativas obtidas através de uma aplicação realizada anteriormente e apresentada em Bastos et al, 2019.

 

Comparação dos modelos - Erros de estimação e previsão

Umas das formas de comparar os modelos é contrastar os erros de estimação e previsão. Para isso, foram calculadas as métricas MAE (Mean Absolute Error) e RMSE (Root Mean Squared Error).

O MAE e RMSE medem a magnitude média dos erros em um conjunto de estimações ou previsões.

MAE:

\[\frac{\sum_{t} |\hat{y_{t}} - y_{t}|}{m} \]

RMSE:

\[\sqrt{ \frac{\sum_{t} (\hat{y_{t}} - y_{t})^2}{m} }\] Onde \(m\) é o número de parcelas da soma.

Os índices do somatório vão depender do tempo para \(N_{t}\) e do tempo e defasagens para \(n_{t,d}\).

Erros de estimação ou previsão para \(n_{t,d}\):   \(y_{t} = n_{t,d}\)   e   \(\hat{y_{t}} = E(\lambda_{t,d} | \underline{n})\) onde \(\underline{n} = \{n_{t,d}\}\) é a coleção dos dados observados.

Erros de estimação ou previsão para \(N_{t}\):   \(y_{t} = N_{t}\)   e   \(\hat{y_{t}} = E( \theta_{t} | \underline{n})\) onde \(\underline{n} = \{n_{t,d}\}\) é a coleção dos dados observados.

Aplicação - Casos de dengue

Estrutura dos casos semanais de dengue no Rio de Janeiro entre janeiro de 2011 e abril de 2012.

A série foi observada para 35 semanas e definimos \(T = 25\), \(D = 10\) e \(H = 10\).

As contagens em vermelho foram omitidas para ajustar os modelos e verificar a qualidade das estimativas e previsões obtidas.

Aplicação - Casos de dengue

Observa-se que a condição de linearidade para as defasagens (\(\beta_{d} = \gamma d\)) no modelo com estrutura conjunta de atraso parece razoável para esses dados.

Estimativas e previsões com estrutura de atraso independente

 

Estimativas com estrutura de atraso independente

Observando os gráficos, parece que realmente há uma estrutura de decaimento no log com os atrasos nas notificações. Isso reforça a suposição de linearidade entre os atrasos.

Estimativas e previsões com estrutura conjunta de atraso

 

Estimativas e previsões com estrutura conjunta por atraso na notificação

Comparação dos modelos por atraso na notificação

Comparação dos modelos

 

Trabalhos futuros

 

 

 

Referências

BASTOS, Leonardo S., et al. A modelling approach for correcting reporting delays in disease surveillance data. Statistics in Medicine, 2019.

CHAI, T., DRAXLER, R.R. Root mean square error (RMSE) or mean absolute error (MAE)? – Arguments against avoiding RMSE in the literature. Geosci. Model Dev., 2014.

GAMERMAN, D. e LOPES, H. F. Markov Chain Monte Carlo: stochastic simulation for Bayesian inference. CRC press, 2006.

GAMERMAN, D., et al. Building a Platform for Data-Driven Pandemic Prediction from Data Modelling to Visualisation - The CovidLP Project. CRC press, 2022.

GELMAN, A., et al. Bayesian Data Analysis. 2013.

NOLAU, Izabel, GAMERMAN, Dani, BASTOS, Leonardo S. A modeling approach to forecasting data with reporting delay. Simpósio Nacional de Probabilidade e Estatística, 2022.